解剖标志的本地化对于临床诊断,治疗计划和研究至关重要。在本文中,我们提出了一种新的深网络,名为特征聚合和细化网络(Farnet),用于自动检测解剖标记。为了减轻医疗领域的培训数据有限的问题,我们的网络采用了在自然图像上预先培训的深网络,因为骨干网络和几个流行的网络进行了比较。我们的FARNET还包括多尺度特征聚合模块,用于多尺度特征融合和用于高分辨率热图回归的特征精制模块。粗细的监督应用于两个模块,以方便端到端培训。我们进一步提出了一种名为指数加权中心损耗的新型损失函数,用于准确的热爱回归,这侧重于地标附近的像素的损失并抑制了远处的损失。我们的网络已经在三个公开的解剖学地标检测数据集中进行了评估,包括头部测量射线照片,手射线照片和脊柱射线照相,并在所有三个数据集上实现最先进的性能。代码可用:\ url {https://github.com/juvenileinwind/farnet}
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
面向目标的意见单词提取(TOWE)是一项精细的情感分析任务,旨在从句子中提取给定意见目标的相应意见单词。最近,深度学习方法在这项任务上取得了显着进步。然而,由于昂贵的数据注释过程,TOWE任务仍然遭受培训数据的稀缺性。有限的标记数据增加了测试数据和培训数据之间分配变化的风险。在本文中,我们建议利用大量未标记的数据来通过增加模型对变化分布变化的暴露来降低风险。具体而言,我们提出了一种新型的多透明一致性正则化(MGCR)方法,以利用未标记的数据并设计两个专门用于TOWE的过滤器,以在不同的粒度上过滤嘈杂的数据。四个TOWE基准数据集的广泛实验结果表明,与当前的最新方法相比,MGCR的优越性。深入分析还证明了不同粒度过滤器的有效性。我们的代码可在https://github.com/towessl/towessl上找到。
translated by 谷歌翻译
目的:心电图(ECG)信号通常会遭受噪声干扰,例如基线徘徊。心电图信号的高质量和高保真重建对于诊断心血管疾病具有重要意义。因此,本文提出了一种新型的心电图基线徘徊和降噪技术。方法:我们以特定于心电图信号的条件方式扩展模型,即心电图基线徘徊和噪声去除(Descod-ECG)的基于深度分数的扩散模型。此外,我们部署了一个多拍的平均策略,以改善信号重建。我们在QT数据库和MIT-BIH噪声应力测试数据库上进行了实验,以验证该方法的可行性。采用基线方法进行比较,包括传统的基于数字过滤器和基于深度学习的方法。结果:数量评估结果表明,所提出的方法在四个基于距离的相似性指标(平方距离的总和,最大绝对正方形,根距离的百分比和余弦相似性)上获得了出色的性能,并具有3.771 $ \ pm $ 5.713 au,$ 5.713 au, 0.329 $ \ pm $ 0.258 au,40.527 $ \ pm $ 26.258 \%和0.926 $ \ pm $ 0.087。与最佳基线方法相比,这至少导致了至少20%的总体改进。结论:本文证明了Descod-ECG的最新性能用于ECG噪声,该噪声可以更好地近似真实的数据分布和在极端噪声腐败下较高的稳定性。意义:这项研究是最早扩展基于条件扩散的生成模型以去除ECG噪声的研究之一,并且Descod-ECG具有广泛用于生物医学应用的潜力。
translated by 谷歌翻译
在本文中,我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作,包括但不限于图像编辑,图像合成,图像合成,图像,图像,图像,图像合成,图像,图像编辑一代,图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队,约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案,其中三支球队在大结局中获得了奖项。在本文中,我们介绍了前三名团队的解决方案,以增强图像伪造检测领域的研究工作。
translated by 谷歌翻译
从视频中获得地面真相标签很具有挑战性,因为在像素流标签的手动注释非常昂贵且费力。此外,现有的方法试图将合成数据集的训练模型调整到真实的视频中,该视频不可避免地遭受了域差异并阻碍了现实世界应用程序的性能。为了解决这些问题,我们提出了RealFlow,这是一个基于期望最大化的框架,可以直接从任何未标记的现实视频中创建大规模的光流数据集。具体而言,我们首先估计一对视频帧之间的光流,然后根据预测流从该对中合成新图像。因此,新图像对及其相应的流可以被视为新的训练集。此外,我们设计了一种逼真的图像对渲染(RIPR)模块,该模块采用软磁性裂口和双向孔填充技术来减轻图像合成的伪像。在E-Step中,RIPR呈现新图像以创建大量培训数据。在M-Step中,我们利用生成的训练数据来训练光流网络,该数据可用于估计下一个E步骤中的光流。在迭代学习步骤中,流网络的能力逐渐提高,流量的准确性以及合成数据集的质量也是如此。实验结果表明,REALFLOW的表现优于先前的数据集生成方法。此外,基于生成的数据集,我们的方法与受监督和无监督的光流方法相比,在两个标准基准测试方面达到了最先进的性能。我们的代码和数据集可从https://github.com/megvii-research/realflow获得
translated by 谷歌翻译
本文研究了关于Riemannian流形的大规模优化问题,其目标函数是负面概要损失的有限总和。这些问题在各种机器学习和信号处理应用中出现。通过在歧管环境中引入Fisher信息矩阵的概念,我们提出了一种新型的Riemannian自然梯度方法,可以将其视为自然梯度方法的自然扩展,从欧几里得环境到歧管设置。我们在标准假设下建立了我们提出的方法的几乎纯净的全球融合。此外,我们表明,如果损失函数满足某些凸度和平稳性条件,并且输入输出图满足了雅各布稳定条件,那么我们提出的方法享有局部线性 - 或在Riemannian jacobian的Lipschitz连续性下,输入输出图,甚至二次 - 收敛速率。然后,我们证明,如果网络的宽度足够大,则可以通过具有批归归量的两层完全连接的神经网络来满足Riemannian Jacobian稳定性条件。这证明了我们的收敛率结果的实际相关性。对机器学习产生的应用的数值实验证明了该方法比最先进的方法的优势。
translated by 谷歌翻译
随机梯度下降(SGD)是一种深入学习神经网络中广泛使用的算法,已吸引了对其成功背后的理论原理的持续研究。最近的一项工作发现了神经权重的方差与SGD下溶液附近损失功能的景观平坦之间的通用逆差异 - 流动性(IVF)关系[Feng&tu,PNAS 118,0027(2021)]。为了调查这种似乎违反统计原理的行为,我们部署了随机分解来分析SGD的动力学特性。该方法构建了可以通过Boltzmann分布使用的真实“能量”函数。新能源与通常的成本函数不同,并解释了SGD下的IVF关系。我们进一步验证了冯工作中确定的缩放关系。我们的方法可能会弥合经典统计力学与新兴人工智能学科之间的差距,并有可能对后者更好地算法。
translated by 谷歌翻译
现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译
从消息传递机制中受益,图形神经网络(GNN)在图形数据上的繁荣任务上已经成功。但是,最近的研究表明,攻击者可以通过恶意修改图形结构来灾难性地降低GNN的性能。解决此问题的直接解决方案是通过在两个末端节点的成对表示之间学习度量函数来建模边缘权重,该指标函数试图将低权重分配给对抗边缘。现有方法使用监督GNN学到的原始功能或表示形式来对边缘重量进行建模。但是,两种策略都面临着一些直接问题:原始特征不能代表节点的各种特性(例如结构信息),而受监督的GNN学到的表示可能会遭受分类器在中毒图上的差异性能。我们需要携带特征信息和尽可能糊状的结构信息并且对结构扰动不敏感的表示形式。为此,我们提出了一条名为stable的无监督管道,以优化图形结构。最后,我们将精心设计的图输入到下游分类器中。对于这一部分,我们设计了一个高级GCN,可显着增强香草GCN的鲁棒性,而不会增加时间复杂性。在四个现实世界图基准上进行的广泛实验表明,稳定的表现优于最先进的方法,并成功防御各种攻击。
translated by 谷歌翻译